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摘要 : [目的 /意义 ] 对 国内 外 政府 数据 的 文献 进行 研究 ， 分 析 国 内 外 研究 主题 和 
演化 趋势 的 差异 ， 对 于 了 解 国内 外 政府 数据 研究 现状 ， 推 动 国内 政府 数据 研究 的 
创新 发 展 具有 重要 的 参考 意义 。[ 方 法 /过 程 ] 选 取 2010 年 至 今 政府 数据 的 相关 文 


献 ， 


行 分 析 ， 通 过 构建 高 频 词 词 云图 


基于 动态 主题 模型 (Dynamic Topic Model, DTM) 对 国内 外 政府 数据 文献 进 
、 分 析 主 题 强度 演化 趋势 及 主题 关键 词 演 化 路 径 


三 个 方面 对 比 国内 外 政府 数据 研究 的 现状 及 差异 。[ 结 果 / 结 论 ] 国 内 外 的 政府 数 
据 相 关 研 究 存在 较 大 差异 : 国内 的 研究 主题 数量 较 多 ,研究 内 容 比 较 细 化 ， 而 
主要 对 政府 数据 的 质量 、 框 架 模型 和 评估 方法 进行 研 
究 。 回国 内 的 研究 主题 强度 整体 较 低 ， 起 伏 波 动 较 大 ， 国 外 的 研究 主题 强度 整体 
较 高 , 主题 演化 趋势 中 较为 稳定 , 波动 较 小 , 具有 较 高 的 传承 性 ,。 @ 国 外 侧重 “ 政 
府 数 据 评估 ”的 相关 研究 ， 主 题 强度 最 高 ， 国 内 关注 度 较 低 ， 虽 然 在 最 近 有 所 提 
升 ， 但 与 国外 相 比 关注 度 仍然 较 低 。 
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国外 的 研究 主题 数 


1 引言 
政府 数据 是 政府 使 用 信息 技术 主动 向 公众 免费 开放 的 数据 信息 ,主要 特征 包 
插 开 放 性 、 授 权 性 和 机 器 适用 性 ， 在 数字 时 代 具 有 很 高 的 研究 价值 沛 。 随 着 信息 


技术 和 大 数据 产业 的 鞍 勃 发 展 ， 数 据 资 源 成 爆发 式 增长 ， 信 息 技 术 和 智能 技术 得 
数据 正在 以 其 独特 的 方式 彰显 自身 的 价值 ， 其 中 政府 数据 
中 发 挥 着 举足轻重 的 作用 。 各 国政 府 步 入 数字 时 代 的 过 程 


到 了 广泛 的 应 用 ， 各 和 
在 社 


ELE 
量 较 少 ， 


会 公共 事物 的 治 


中 ， 积 累 了 大 量 的 政府 数据 ， 这 些 数据 是 非常 重要 的 非 物质 财富 ， 记 录 着 政府 以 


往 进行 的 数字 活动 四 。 政 府 数 据 的 合 班 
便利 条 件 ， 因 此 政府 需要 加 强 对 数据 的 治理 
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通讯 作者 ， 


使 用 可 以 为 人 们 的 工作 和 生活 带 来 极 大 的 


以 保证 数据 的 质量 ， 实 现 数据 开放 、 
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数据 共享 、 促 进 数字 经 济 的 稳定 发 展 和 智能 社会 的 平稳 运行 。 

本 文选 用 中 国 知 网 和 Web of Science 两 大 平台 中 的 政府 数据 相关 文献 , 采 
用 主题 挖掘 的 方法 ， 通 过 挖掘 国内 外 政府 数据 相关 文章 中 的 研究 主题 ， 分 析 国 内 
外 政府 数据 的 研究 现状 、 根 据 主题 强度 的 变化 趋势 以 及 主题 自身 的 演化 状况 ， 揭 
示 国 内 外 相关 研究 的 异同 点 ， 以 期 为 我 国 未 来 政府 数据 的 发 展 提供 新 的 研究 思路 
和 参考 价值 。 

2 相关 研究 
2.1 政府 数据 研究 

政府 数据 是 国家 最 重要 的 战略 资产 , 在 大 数据 背景 下 其 最 大 作用 应 当 是 对 民 
众 进行 开放 , 与 民众 共享 , 推动 政府 服务 效率 的 同时 刺激 国家 的 经 济 增长 。 因此 ， 
针对 政府 数据 如 何 有 效 开放 、 怎 样 搭建 高 效率 的 政府 开放 平台 、 开 放 过 程 中 隐私 
的 保护 和 数据 的 安全 问题 ， 成 为 了 广大 学 者 关注 的 焦点 。 马 海 群 等 加 运用 WSR 
(WuH-Shili-Renli System Approach) 方法 论 对 美国 和 加 拿 大 政策 框架 进行 分 
析 和 评估 ， 并 且 对 政策 的 执行 力 影响 因素 进行 了 深入 的 研究 。 黄 如 花 等 向 根据 我 
国政 府 数 据 资源 管理 政策 的 文本 进行 分 析 ， 认 为 我 国政 府 数据 开放 政策 关注 数据 
获取 与 利用 涉及 较 多 ， 对 于 数据 生产 、 归 档 和 保存 、 数 据 监管 等 问题 的 关注 度 仍 
有 待 提高 。 陈 美 外 从 隐私 风险 控制 的 角度 对 政府 数据 进行 研究 ， 分 析 了 国内 外 政 
府 数 据 开 放风 险 的 研究 动态 ， 指 出 我 国 理论 研究 仍 明显 滞后 ， 取 法 个 人 隐私 保护 
的 法 律 法 规 。 翟 军 等 &9 对 政府 数据 的 质量 进行 评价 ， 以 元 数据 、 数 据 的 标准 和 
检索 等 内 容 进 行 深入 研究 。 马 海 群 等 -采用 基于 结构 方程 法 、 神 经 网 络 算 法 和 
DEA 分 析 法 对 数据 开放 网 站 的 质量 和 效率 进行 评价 和 研究 。 

纵 观 我 国 对 于 政府 数据 相关 的 研究 , 国内 学 者 主要 围绕 着 政府 数据 开放 政策 
法 规 、 政 府 开放 数据 管理 、 政 府 开放 数据 平台 研究 、 政 府 开放 数据 利用 等 方面 进 
行 研究 , 少 有 运用 主题 模型 对 国内 外 政府 数据 的 研究 热点 和 演化 趋势 进行 系统 性 
的 概括 和 总 结 。 
2.2 DTM 主题 模型 研究 

主题 模型 (Top Model) 是 一 种 以 非 监 督学 习 的 方式 对 文本 及 的 隐 舍 语义 结 
构 进 行 聚 类 的 统计 模型 94。 自从 2003 年 LDA 主题 模型 由 Blei 首先 提出 后 (Blei, 
Ng, & Jordan, 2003) ， 便 掀起 了 主题 识别 与 挖掘 的 热潮 03。 多 数学 者 从 论文 、 


政策 文本 等 资料 中 ， 识 别 并 挖掘 主题 ， 从 而 掌握 该 领域 的 研究 现状 。 但 是 LDA 
模型 仅 能 挖掘 主题 静态 特征 ， 无 法 分 析 不 同 主题 在 时 间 序 列 中 的 演化 趋势 ， 于 是 
2006 年 Blei Æ LDA 模型 的 基础 上 提出 了 动态 主题 模型 (Dynamic Topic 
Model,DTM) 04。DTM 模型 弥补 了 LDA 模型 只 能 对 静态 文本 建 模 的 缺陷 ， 已 
经 发 布 便 被 广泛 使 用 。 印 均 平 等 03 运 用 DTM 模型 对 国内 外 话语 权 研 究 的 主题 进 
行 对 比分 析 ， 以 破解 我 国 话语 权 困境 ， 指 引 未 来 话语 权 研 究 的 发 展 方向 。 吴 瑞 朋 
等 04 通 过 量化 分 析 60 份 美国 人 工 智能 战略 报告 ， 发 现 美 国 的 人 工 智 能 战略 中 心 
的 转变 ， 并 指出 了 中 国 面 临 的 挑战 和 发 展 建 议 。 章 成 志 等 0 利用 DTM 模型 和 社 
区 发 现 技术 的 话题 演变 方法 ， 改 善 了 传统 话题 模型 的 表现 ， 解 决 了 无 法 确定 与 结 
果 可 解释 性 差 的 问题 。 

综 上 所 述 ， 虽 然 DTM 模型 已 经 被 应 用 在 话语 权 、 社 区 发 现 技 术 和 战略 分 析 
等 相关 领域 ， 但 是 在 政府 数据 领域 运用 DTM 模型 研究 主题 演进 和 演化 趋势 的 研 
究 成 果 较 为 欠缺 , 鉴于 此 , 本 研究 基于 DIM 模型 挖掘 了 政府 数据 2010 年 至 今 的 
主体 演化 趋势 和 变化 规律 ， 分 析出 不 同时 间 阶 段 的 热点 主题 和 关键 问题 ， 剖 析 政 
府 数 据 研 究 的 演化 路 径 ， 为 进一步 推动 我 国政 府 数据 的 研究 发 展 提供 参考 价值 。 
3 研究 方法 

本 文 使 用 动态 主题 模型 对 2010 年 至 今 国内 外 政府 数据 相关 文献 进行 研究 ， 
具体 研究 如 下 。 
3.1 动态 主题 模型 

动态 主题 模型 (Dynamic Topic Model,DTM) 是 对 潜在 狄 利克 雷 分 配 
(Latent Dirichlet Allocation, LDA) 扩展 的 一 种 无 监督 机 器 学 习 的 生成 式 模型 ， 
由 文档 集 层 、 主 题 层 和 特征 词 层 3 层 结构 组 成 ， 可 以 将 文本 分 成 多 个 时 间 切 片 ， 
并 且 假 设 每 个 时 间 切 片 中 的 文档 分 布 都 服从 相同 维度 的 主题 模型 , 但 是 每 个 时 间 
切片 中 的 主题 分 布 和 词 分 布 都 是 随时 间 变 化 的 。DTM 根据 前 一 个 时 间 片 中 的 主 
题 和 词 分 布 来 预测 后 一 个 时 间 片 中 的 主题 和 词 分 布 , 从 而 形成 一 个 动态 的 主题 演 
化 过 程 ， 有 具体 原理 如 图 2 所 示 。 


图 2 DTM 模型 原理 

2 中 K 表 示 主 题 个 数 ,A 表示 时 间 片 内 的 文档 数量 ,N 表示 文档 中 词 的 数量 ,z 

M o 表示 最 终生 成 的 主题 和 主题 词 , a 与 8B 表示 狄 利克 雷 先 验 分 布 参数 ,a 是 每 个 
文档 可 能 的 主题 分 布 , 8 是 每 个 主题 可 能 的 词 分 布 , 6 是 该 文档 的 主题 模型 ,表示 服 
从 带 有 参数 a 的 狄 利 元 雷 分 布 。 主 题 z 由 多 项 分 布 6 选取 ,与 主题 相关 的 词 @ 由 z 
和 8 的 多 项 分 布 选 取 。 在 每 个 时 间 片 段 + 下 ,文档 主题 分 布 at 以 及 与 主题 相关 的 


词 分 布 B ix 均 依赖 于 上 一 时 间 片 段 中 的 a pas B t_iw 上 一 个 时 间 段 二 1 生成 这 
个 时 间 段 + 的 B tk。 通过 迭代 生成 过 程 ,每 个 时 间 片 段 中 的 文档 主题 分 布 和 词 分 
布 都 会 受到 上 一 个 时 间 片 段 的 分 布 参数 的 影响 ,从 而 实现 文档 主题 的 连续 演化 , 见 
公式 (1) 和 (2) : 


atlot_1~N(at 4, 671) 公式 
(D 


Be xlBr-1i~N(Br-1, 9 ?D 公式 


(2) 
DTM 模型 在 + 时 间 片 段 内 连续 文档 主题 的 生成 过 程 如 下 : 
1) 生成 主题 词 分 布 : Bix|Bt_11~N(Bt_1, o ?D. 


2) 生成 主题 分 布 : ou 47 N(a a4, 67D. 

3) 对 于 每 个 文档 文献): 

a. 生成 n ~ Mult(a,, a?l) 

b. 对 于 每 个 词 : 

i ÆW Z~ Mult (m (n2); 

ii. 生成 wtaun ~ Mult(n(Btz)) 

其 中 ， 函 数 直 是 多 项 式 到 正 态 分 布 的 映射 ， 见 公式 〈3) 


exp(B, . o) 
H(Bik), = —a6 AUN 
Y m tk,o 


(3) 
3.2 研究 设计 

本 文 研究 路 线 图 如 图 1 所 示 ， 主 要 研究 步骤 如 下 : (1) 从 CNKI fü Web of 
Science 上 获取 国内 外 政府 数据 开放 研究 的 相关 文献 。 (20 对 文本 进行 分 词 ， 
构建 停 用 词 表 ， 文 本 向 量化 等 预 处 理 。 (3) 根据 主题 一 致 性 确定 主题 数量 ， 构 
££ DTM 模型 ， 获 取 “ 主 题 一 词 和 矩阵 ”和 “文档 一 主题 矩阵 ”文件 。 (4) 对 各 个 
主题 的 主体 强度 进行 计算 ， 分 析 ， 将 主题 强度 的 演化 趋势 和 关键 词 演 化 路 径 可 视 
化 ， 进 行 对 比 研究 。 
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图 1 研究 路 线 图 


3.3 数据 来 源 与 处 理 
3.3.1 数据 来 源 

本 文 分 别 以 下 载 2010 年 至 今 CNKI 和 Wos 政府 数据 相关 文献 ，CNKI 的 检 
索 式 为 “主题 = 政府 数据 ”， 文 献 类 型 为 SCI|、CSSCI 和 北大 核心 ，Wos 的 检索 
式 为 “TS = government data”, 文 献 类 型 为 Articles (检索 时 间 为 2023 年 9 
月 10 日 ) 。 对 采集 的 文章 进行 人 工 筛选 ， 去 除 会 议 记 录 ， 培 训 公告 ， 序 言 和 无 
摘要 期 刊 等 不 相关 内 容 后 ， 共 得 到 中 文 文献 646 篇 ， 英 文 文献 888 篇 。 
3.3.2 划分 时 间 切 片 

政府 数据 研究 的 热潮 源 起 于 2009 年 美国 颁布 的 《开放 政府 指令 》， 根 据 发 
文 数 量 、 研 究 内 容 、 研 究 方法 等 特征 ， 将 政府 数据 的 研究 历程 划分 为 起 步 探索 、 
快速 发 展 和 稳定 推进 三 个 阶段 08。 同 时 统计 各 年 度 发 文 量 得 图 3。 
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图 3 国内 外 各 年 度 发 文 量 

由 图 3 可 知 2010-2014 年 ,该 阶段 学 者 刚刚 开始 关注 政府 数据 研究 议题 ,年 
均 发 文 量 较 低 ， 所 以 将 此 阶段 设 定 为 起 步 探索 阶段 。2015-2018 年 ， 随 着 政府 数 
据 的 发 展 与 建设 ， 更 多 的 学 者 开始 投身 于 政府 数据 领域 的 研究 中 ， 本 阶段 政府 数 
据 相 关 的 研究 文献 显著 增加 ， 所 以 将 此 阶段 定义 为 快速 发 展 阶段 。2019 FES, 
该 阶段 发 文 数量 逐渐 平稳 ， 研 究 问题 的 专题 深入 已 经 进入 相对 成 熟 的 阶段 ， 将 此 
阶段 定义 为 稳定 推进 阶段 。 
3.3.3 语料库 处 理 


将 文献 的 摘要 、 标 题 、 关 键 词 和 发 表 时 间 下 载 作为 语料库 。 对 于 中 文 文献 ， 
调用 Python 中 的 中 文 分 词 工具 jieba 库 得 到 每 个 文献 的 词 集合 ， 首 先 将 文献 中 
的 关键 词 去 重 后 添加 到 自 定 义 用 户 词典 中 ， 使 用 哈工大 中 文 停 用 词 表 ， 再 根据 模 
型 效果 对 停 用 词 表 进行 补充 。 对 于 英文 单词 ， 调 用 NLTK 自然 语言 处 理工 具 包 ， 
进行 词性 标注 和 词性 还 原 后 ， 将 单词 转换 为 小 写 ， 最 后 去 除 停 用 词 。 

3.3.4 主题 个 数 确 定 

在 进行 DIM 动态 主题 建 模 时 ， 首 先 要 通过 计算 主题 一 致 性 以 获得 最 优 主 题 
个 数 ， 考 虑 到 本 研究 语料库 的 数量 ， 将 主题 个 数 设 定 为 2~20， 主 题 一 致 性 越 大 
说 明 模 型 效果 越 好 。 由 图 4 可知， 根据 计算 结果 ， 设 置 国内 主题 为 5， 国 外 主题 
为 3 时 ， 模 型 的 收敛 效果 最 好 。 

主题 一 致 性 变化 趋势 图 
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图 4 主题 一 致 性 变化 趋势 图 


4 研究 结果 与 分 析 
4.1 高 频 词 分 析 

本 研究 对 国内 外 语料库 进行 分 词 处 理 〈 剔 除 无 意义 词汇 ) ， 然 后 进行 词 频 统 
计 选 取 高 频 词 ， 利 用 Python 中 的 Wordcloud 工具 包 生 成 了 高 频 词 词 云 图 ， 从 
整体 上 对 国内 外 的 研究 方向 进行 分 析 ， 见 图 5、 图 6。 
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通过 对 比 国内 外 政府 数据 的 词 云 图 ， 可 以 看 出 ,虽然 国内 外 主要 关注 的 重点 
都 是 政府 数据 政策 和 发 展 等 相关 的 研究 ， 但 是 通过 价值 、 体 系 、 发 展 等 高 频 词 ， 
可 以 看 出 我 国 的 政府 数据 相关 研究 主要 角度 是 从 政府 自身 出 发 看 待 政府 数据 开 
放 或 治理 能 产生 的 价值 ， 而 国外 的 高 频 词 公众 Public) ~ EH Cuse) 、 服 务 
(service) 等 从 则 表明 从 服务 的 角度 对 政府 数据 的 开放 、 治 理 等 政策 进行 研究 ， 
内 的 政府 数据 研究 更 注重 价值 ， 而 国外 更 注重 服务 。 
4.2 主题 研究 

基于 主题 一 致 性 的 计算 结果 〈 见 图 4) ， 研 究 中 将 国内 政府 数据 研究 的 主题 
分 为 5 个 ， 国 外 政府 数据 研究 主题 分 为 3 个 ， 见 表 1， 表 2。 

表 1 国内 政府 数据 研究 主题 
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表 2 国外 政府 数据 研究 主题 
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EAs: ANH 
内 的 研究 主题 类 别 高 于 国外 ， 可 以 看 出 国内 的 学 者 对 政府 数据 的 研究 具有 
较 高 的 研究 热情 ， 并 且 研 究 的 方向 和 范围 相 较 于 国外 更 为 广泛 。 
4.2.1 国内 研究 主题 分 析 
C1) 政府 数据 隐私 。 政 府 数据 隐私 主要 涉及 的 是 政府 数据 开放 过 程 中 隐私 


保护 的 问题 ， 大 部 分 学 者 将 隐私 保护 和 政策 与 法 律 关 联 在 一 起 ， 黄 如 花 等 对 我 国 
9 、 美 国 咎 、 英 国 后 个 人 隐私 保护 的 法 律 法 规 、 政 策 和 平台 进行 研究 。 刘 凌 等 后 
从 大 数据 的 视角 对 国内 外 政府 数据 开放 与 个 人 隐私 之 间 的 关联 进行 研究 ， 认 为 国 
内 研究 偏重 于 政策 法 规 ， 理 论 研究 较为 稀缺 ， 并 提出 了 先导 性 模型 以 期 打破 当前 
困境 。 张 晓 娟 等 的 以 政府 数据 开放 和 个 人 隐私 保护 之 间 互 相 平衡 为 切入 点 ， 经 过 
分 析 后 指出 了 我 国 所 面临 的 挑战 并 给 出 建议 。 

(2) 政府 数据 风险 。 政 府 数据 开放 带 来 了 经 济 价值 和 社会 价值 的 同时 ， 它 
所 带 来 的 风险 也 更 加 的 复杂 ， 政 府 数 据 的 风险 也 是 我 国学 者 的 研究 重点 之 一 。 夏 
义 葛 的 将 政府 数据 开放 风险 分 为 : 国家 安全 风险 、 政 治 风险 、 行 政 风 险 、 隐 私 风 
险 和 经 济 风险 , 结合 国内 外 的 实践 经 历 提 出 了 导致 政府 数据 开放 风险 的 主要 原因 ， 
认为 应 当 建 立 相 应 的 风险 识别 和 评估 机 制 ， 以 提高 风险 应 对 能 力 。 陈 美 等 对 荷兰 
PP、 日 本 2、 西 班 牙 2 、 巴 西 史 的 隐私 风险 控制 进行 研究 分 析 各 国 对 于 风险 防 
控 的 优势 和 劣势 ， 进 行 归纳 后 为 我 国 提供 启示 。 赵 需要 针对 政府 数据 开放 中 的 国 
家 秘密 PI、 商业 秘密 89 和 个 人 隐私 S11 泄露 的 风险 进行 调研 ， 并 提出 了 保护 策略 。 

(3) 政府 数据 政策 。 我 国 的 政府 数据 政策 的 研究 主要 分 为 3 个 方面 ， 数据 
保障 政策 、 平 台 保障 政策 、 隐 私 保 护 政策 。 黄 如 花 、 陈 美 、 马 海 群 等 学 者 对 此 领 
域 进行 了 深入 的 研究 ， 目 前 我 国政 策 主要 存在 体系 不 健全 ， 监 管 不 到 位 ， 各 地 政 
府 建设 差距 过 大 等 问题 ， 还 有 许多 改进 的 空间 。 

(4) 政府 数据 治理 。 政 府 数 据 治理 是 当前 国内 外 学 术 研究 中 比较 热点 的 问 
题 ， 同 时 也 是 推进 数字 化 政府 建设 的 首要 前 提 。 夏 义 萤 等 针对 情 34 政 府 数 据 治理 
的 框架 、 内 涵 、 生 成 背景 进行 了 深入 的 研究 与 讨论 ， 指 出 了 我 国政 府 数 据 治理 面 
临 的 主要 问题 和 困境 , 优化 了 治理 的 方式 和 路 径 。 安 小 米 等 Bl 分 别 对 国内 外 政府 
数据 治理 现在 进行 分 析 ， 并 总 结 出 了 我 国政 府 数据 治理 的 框架 建设 总 体 思 路 ， 从 
国家 层面 提出 了 新 视角 、 新 思路 。 

(5) 政府 数据 评估 。 政 府 数据 评估 主题 主要 是 对 政府 数据 开放 的 效率 和 如 
何 构建 评估 框架 进行 研究 ， 张 晓 娟 等 B89 收集 了 2012 年 至 2017 年 上 海 政 府 数据 
服务 网 全 部 的 开放 数据 ， 采 用 更 新 积累 度 、 更 新 及 时 度 、 更 新 增长 度 和 更 新 转化 
度 四 个 维度 进行 测算 ， 创 造 了 一 系列 完整 的 政府 数据 的 评估 体系 。 
4.2.2 国外 研究 主题 分 析 


与 国内 研究 相 比 ， 国 外 政府 数据 的 研究 主题 相对 较 少 ， 可 以 看 出 国外 对 于 政 
府 数 据 研究 方向 较为 集中 ,并且 国外 政府 数据 的 研究 方向 与 国内 存在 差异 ， 具体 
主题 如 下 。 

CD 政府 数据 质量 。 通 过 文献 调研 发 现 , 在 2013 年 之 前 国外 主要 从 宏观 层 
面 对 政府 数据 展开 研究 ， 包 括 但 不 限于 政府 数据 开放 能 否 支 持 民众 参与 决策 、 开 
放 政 府 与 政府 数据 之 间 的 关系 、 政 府 数据 重复 利用 的 优势 与 建议 等 。 在 2013 年 
后 ， 国 外 的 研究 方向 转向 微观 层面 ， 对 政府 数据 的 质量 、 技 术 、 应 用 等 进行 了 深 
入 研究 。Oviedo 等 BS 构建 了 政府 数据 开放 门户 中 的 数据 质量 模型 ， 认 为 在 政府 
数据 开放 的 过 程 中 ， 重 复 使 用 性 和 可 分 配 性 极 大 程度 的 影响 了 政府 数据 的 质量 ， 
并 且 通 过 实验 验证 了 其 模型 的 准确 性 以 及 测量 机 制 。Andrew Whitmore 8245 H 
政府 数据 的 质量 与 用 户 利用 数据 的 能 力 紧 密 相 关 , 同时 数据 的 质量 也 会 影响 数据 
提供 者 的 备案 质量 ， 在 研究 中 发 现 有 关 政 府 数据 信息 的 主要 问题 表现 在 : 信息 准 
确 性 不 足 、 信 息 缺 乏 和 不 完全 。 

(2) 政府 数据 信息 。 通 过 关键 词 information URS) 、policy (政策 ) 、 
state CORD) 等 可 以 看 出 ， 国 外 对 于 政府 数据 的 实施 模型 、 政 府 数据 政策 和 政 
府 数 据 的 相关 状态 较为 关注 ， 将 此 主题 的 主题 标识 拟定 为 政府 数据 信息 。 国 外 的 
研究 中 对 概念 模型 的 使 用 十 分 频繁 , Hyoungjoo Park, Richard P. Smiraglia!?! 
利用 概念 参考 模型 (CIDOC CRM) 对 图 书馆 相关 文件 数据 进行 研究 ， 以 增强 政 
府 数 据 被 发 现 的 几率 和 重复 利用 的 可 能 性 。 政 策 是 一 个 研究 领域 的 引导 前 提 ， 
Nugroho 等 的 认为 政府 开放 数据 的 政策 为 政府 数据 的 开放 和 使 用 提供 了 指导 ， 
但 是 一 些 国家 因为 对 政府 数据 的 政策 不 够 完善 ， 错 失 了 很 多 从 中 获 益 的 机 会 ， 于 
是 对 不 同 国家 的 数据 政策 进行 了 比较 ， 并 从 中 总 结 了 经 验 和 教训 。 

《3) 政府 数据 评估 。 国 外 政府 数据 研究 主要 在 质量 、 政 策 、 基 础 设施 等 方 
面 进行 评估 ， 以 达到 政府 数据 开发 的 效率 最 大 化 。Davide Ceolin 等 所 为 了 解 
决 开放 数据 和 未 开放 数据 的 差异 和 开放 数据 发 展 的 趋势 提出 了 两 个 评估 开放 政 
府 的 程序 ， 以 英国 汉 普 郡 警察 局 的 数据 为 例 ， 验 证 了 这 两 种 程序 评估 政府 开放 数 
据 的 真实 性 和 可 靠 性 。Charalampos Alexopoulos[ 急 等 提出 了 一 种 评估 开放 政 
府 数据 系统 的 模型 ， 根 据 模 型 中 用 户 等 级 划分 ， 从 数据 提供 能 力 、 下 载 能 力 、 反 
馈 能 力 等 实现 对 政府 数据 系统 进行 改善 和 决策 支撑 。 


4.3 主题 强度 演化 分 析 

主题 强度 可 以 反映 不 同 阶段 的 政府 数据 研究 的 战略 重心 , 本 文 根 据 不 同 主题 
在 不 同 阶段 的 主题 强度 绘制 成 热力 图 和 折线 图 〈 见 图 7、 图 8) ， 通 过 对 主题 强 
度 和 演变 趋势 折线 图 的 变化 进行 分 析 ， 了 解 研究 领域 的 状况 ， 预 测 未 来 可 能 出 现 
的 热点 主题 。 


第 一 阶段 ” ”第 二 阶段 ”” 第 三 阶段 


政府 数据 隐私 
政府 数据 风险 
政府 数据 政策 
政府 数据 治理 ) 
政府 数据 评估 0.099319 0.156908 0. 154465 
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图 8 国外 政府 数据 主题 阶段 演变 图 

4.3.1 国内 主题 强度 演化 分 析 

由 图 7 可 知 ， 国 内 研究 中 由 两 个 主题 呈 上 升 趋势 ， 分 别 为 “政府 数据 政策 ” 
和 “政府 数据 评估 ”; “政府 数据 隐私 ” 呈 持 续 下 降 趋 势 ，“ 政 府 数据 风险 ”和 
“政府 数据 治理 ”在 研究 过 程 中 产生 波动 ， 但 总 体 热度 仍然 较 高 。 结 合 主题 强度 
进行 分 析 ， 可 以 看 出 在 第 一 阶段 中 “政府 数据 隐私 ”和 “政府 数据 治理 ”的 主题 
强度 是 最 高 的 ,可 以 从 中 得 出 在 政府 数据 研究 的 起 步 探索 阶段 我 国 比较 注重 个 人 
隐私 的 保护 和 数据 的 治理 ， 可 能 与 中 国 以 人 为 本 的 公共 政策 有 关 ， 在 利用 政府 数 
据 的 同时 我 国会 更 加 关注 个 人 数据 的 安全 。 到 了 政府 数据 快速 发 展 的 第 二 阶段 ， 
“政府 数据 隐私 ”仍然 是 强度 较 高 的 主题 ， 同 时 “政府 数据 风险 ”的 相关 研究 得 
到 了 广大 学 者 的 关注 , 主题 强度 大 幅 提 升 , “政府 数据 治理 ”的 关注 度 有 所 降低 。 
到 了 稳定 推进 的 第 三 阶段 ， 可 以 从 图 中 看 出 ， 强 度 最 高 的 主题 变 为 了 “政府 数据 
政策 ”， 说 明 我 国 在 2019 年 之 后 研究 的 重心 主要 放 在 了 政策 方面 。 同 时 从 折线 
图 可 以 看 出 ，“ 政 府 数据 隐私 ”方面 的 研究 主题 强度 一 直 在 持续 下 降 ， 未 来 可 能 
得 到 关注 度 仍然 较 小 ， “政府 数据 评估 ”和 “政府 数据 政策 ”的 热度 在 每 个 阶段 
均 有 提升 ， 预 测 在 未 来 关注 度 仍 会 持续 上 升 。 


4.3.2 国外 主题 强度 演化 分 析 

国外 主题 强度 如 图 8 所 示 ， 可 以 看 出 “政府 数据 评估 ”的 热度 在 三 个 阶段 均 
保持 较 高 地 位 ，“ 政 府 数据 质量 ”相关 研究 在 2019 年 后 得 到 了 大 量 关 注 ，“ 政 
府 数据 模型 ”相关 的 研究 的 热度 则 一 直 持 续 降 低 。“ 政 府 数据 质量 ”的 相关 研究 
在 2019 年 之 前 发 展 十 分 稳定 ， 但 是 在 2019 年 后 呈 直 线 上 升 趋势 ， 未 来 可 能 会 
持续 上 升 发 展 为 热点 主题 。 与 之 相反 的 是 “政府 数据 模型 ”相关 的 研究 ， 一 直 处 
于 持续 下 降 的 趋势 ， 可 能 是 因为 在 稳定 推进 的 研究 阶段 ， 无 论 是 相关 的 政策 还 是 
平台 的 研究 ， 都 已 经 较为 成 熟 和 完善 ， 所 以 导致 研究 的 热度 降低 。 
4.4 主题 关键 词 演 化 分 析 

在 不 同 的 时 间 阶 段 ， 同 一 个 研究 主题 的 重心 也 会 存在 差异 。DTM 模型 可 以 
获取 各 个 时 间 切 片 中 的 “主题 - 词 矩 阵 ”, 通过 分 析 主 题 在 不 同时 间 切 片 的 研究 重 
心 的 变化 ， 以 预测 未 来 的 研究 内 容 ， 本 文 分 别 以 国内 持续 上 升 的 热点 主题 “政府 
数据 政策 ”和 国外 主题 强度 最 高 的 “政府 数据 评估 ”主题 为 例 ， 输 出 主题 关键 词 
的 演化 路 径 ， 如 图 9 和 图 10 所 示 《 图 中 展示 前 10 个 关键 词 ) 。 
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图 9 “政府 数据 政策 ”主题 的 关键 词 演化 路 径 

4.4.1 国内 主题 关键 词 分 析 

通过 图 9 可 知 在 不 同时 间 阶 段 下 ，“ 政 府 数据 政策 ”主题 下 的 核心 关键 词 主 
要 有 “研究 ”、“ 政 府 数据 治理 ”、“ 政 府 数据 开放 平台 ”、“ 有 用户” 等 。 结 合 
研究 内 容 来 看 ， 我 国 的 政策 研究 从 数据 的 治理 逐渐 ， 像 数据 开放 平台 偏 移 ， 这 也 
正 对 应 着 图 7 中 ，“ 政 府 数据 治理 ”主题 强度 的 下 降 。 由 此 可 见 ， 政 府 数据 开放 
平台 的 研究 对 于 我 国政 府 数据 开放 政策 有 着 重要 的 研究 意义 ， 未 来 可 以 作为 相关 
领域 的 研究 重点 。 


4.4.2 国外 主题 关键 词 分 析 
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Countries Countries Countries 
Model Model Quality 
Portals Portals | Model 
Quality Quality Portals 
Development Development Development 
Policy Policy Policy 
increase increase Increase 

第 一 阶段 第 二 阶段 第 三 阶段 


图 10 “政府 数据 评估 ”主题 的 关键 词 演化 路 径 

由 图 10 可 知 ，“ 政 府 数据 评估 ”主题 处 于 不 同 发 展 阶段 下 相对 稳定 的 核心 
关键 词 主要 有 “Public”、“Information”、“Countries” 等 。 研 究 显 示 ， 在 
第 一 阶段 和 第 二 阶段 中 ，“ 政 府 数据 评估 ”主题 的 研究 重心 在 于 对 公众 、 国 家 和 
政策 的 评价 ， 到 了 第 三 阶段 ， 数 据 的 质量 评估 引起 了 学 者 的 关注 ， 主 题 强度 得 到 
了 提升 。 结 合 具体 关键 词 可 知 ,国外 的 政府 数据 评估 主要 是 为 了 评估 政府 、 国 家 、 
门户 网 站 发 布 的 相关 政策 ， 作 出 改进 ， 以 提高 数据 质量 ， 促 进 国家 的 发 展 。 
5 结论 和 不 足 

本 研究 通过 使 用 DTM 动态 主题 模型 对 国内 外 政府 数据 相关 论文 进行 了 动态 
主题 挖掘 ， 并 对 结果 进行 了 对 比分 析 。 总 体 来 看 ， 国 内 外 政府 数据 研究 在 研究 主 
题 、 主 题 强 度 及 主题 演化 趋势 等 方面 存在 差异 。 主 要 表现 在 : 中 国内 的 研究 主题 
数量 较 多 ， 研 究 内 容 比较 细 化 ， 对 于 个 人 隐私 、 数 据 治理 、 数 据 风险 等 问题 较为 
关注 ， 而 国外 的 研究 主题 数量 较 少 ， 主 要 对 政府 数据 的 质量 、 框 架 模 型 和 评估 方 
法 进行 研究 。@ 国 内 的 研究 主题 强度 整体 较 低 ， 起 伏 波动 较 大 ， 国 外 的 研究 主题 
强度 整体 较 高 ， 主 题 演 化 趋势 中 较为 稳定 ， 波 动 较 小 ， 具 有 较 高 的 传承 性 。 名 国 
外 对 于 “政府 数据 评估 ”的 相关 研究 较为 重视 ， 主 题 强 度 最 高 ， 国 内 关注 度 较 低 ， 
虽然 在 最 近 有 所 提升 , 但 与 国外 相 比 关注 度 仍然 较 低 。 通 过 对 国内 外 政府 数据 的 
主题 的 对 比分 析 ， 可 以 了 解 到 不 同时 间 切 片 国内 外 的 研究 重心 和 演变 趋势 ， 更 好 
的 找到 我 国 的 政府 数据 相关 问题 所 在 。 同 时 本 文 存 在 一 定 不 足 : (文章 的 数据 来 
源 仅 考虑 了 CNKI 和 Wos 的 研究 论文 ， 并 未 对 国家 政策 文本 进行 分 析 ， 分 析出 


四 


a 


的 结果 可 能 存在 一 定 误差 。 文本 语 料 中 的 用 户 词 典 采用 文献 关键 词 去 重 的 方法 
构建 ， 可 能 导致 模型 结果 不 够 严谨 和 准确 。 
后 续 研 究 将 会 进一步 扩充 语料库 的 数 


E, 
时 


， 在 文献 的 基础 上 纳入 政策 文本 ， 使 
生成 的 主题 模型 更 加 全 面 细 化 ， 对 政府 数据 相关 领域 进行 深入 分 析 。 
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Abstract:[Purpose/Significance|To study the literature of domestic and foreign 
government data, analyze the differences in research themes and evolution trends at 


home and abroad, which has important reference significance for understanding the 
current status of domestic and foreign government data research and promoting the 
innovation and development of domestic government data research. [Method/Process] 
The relevant literature of government data from 2010 to the present was selected, and the 
current situation and differences of domestic and foreign government data research were 
compared by constructing high-frequency word cloud maps, analyzing the evolution 
trend of theme intensity and the evolution path of theme keywords. [Results/Conclusions] 
There are great differences in government data-related research at home and abroad: (1) 
The number of domestic research topics is more large, and the research content is 
relatively detailed, while the number of foreign research topics is small, mainly on the 
quality, framework model and evaluation method of government data. (2) The overall 
intensity of domestic research themes is low, the fluctuations are large, and the overall 
intensity of foreign research themes is higher, and the theme evolution trend is relatively 
stable, the fluctuation is small, and it has high inheritance. (3) Foreign research focusing 
on "government data evaluation" has the highest thematic intensity and low domestic 
attention, although it has recently improved, but the attention is still low compared with 
foreign countries. 

Keywords:government data; Open government data; DTM model; Theme mining; 
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